Hadoop : NoSuchMethodException

hadoop - 使用 JOIN 语法的 Hive RLIKE

我在配置单元上有两个表。第一个称为“访问”，包含apache日志，其中第一个字段是完整的ip地址:10.4.5.12--[26/Jun/2010:11:16:09+1000]"GET/myportal/pageAHTTP/1.1"10.4.41.2--[26/Jun/2010:11:18:09+1000]"GET/myportal/pageBHTTP/1.1"10.5.1.111--[26/Jun/2010:11:22:09+1000]"GET/myportal/pageAHTTP/1.1"192.10.4.177--[26/Jun/2010:11:22:41+1000]"GET/my

hadoop - 定时上传HDFS数据

我正在做一个项目，我会实时收集数据。我想定期将该数据从我的本地机器上传到HDFS。这里的频率将每隔几个小时。我的想法是安排一个批处理文件在2小时后定期运行。最佳答案你有几个选择:使用cron作业。如果您希望它更复杂，您可以使用ApacheOozie来安排您的作业。如果您希望以分布式、可靠和容错的方式完成此操作，您可以使用ApacheFlume。借助Flume，您甚至可以通过为数据源编写自定义Flume源直接从源收集数据，而无需先将数据聚合到本地FS，然后再将其移动到HDFS。关于h

hadoop HDFS section 来安 stackoverflow

hadoop - 我可以在同一台 Linux 机器上有两个 sudo 用户吗？

我正在使用ubuntu。我有一个名为hduser的super用户和另一个名为hadoopuser的用户，我在其中安装了hadoop并正在使用它。我的问题是我应该在哪里安装其他软件hive&pig。因为当我安装pig时一切正常，加载数据和一切，但是当我转储变量以打印输出时我得到异常org.apache.hadoop.security.AccessControlException:Permissiondenied:user=hduser,access=WRITE,inode="":hadoopuser:supergroup:rwxr-xr-xorg.apache.pig.impl.logi

hadoop Linux section strong hadoopuser apache-pig

hadoop - 自动链接 mapreduce 库

我正在开发一个在亚马逊网络服务上运行的mapreduce程序(它实际上是一个相当复杂的字数统计算法)。我生成了一个在AWS节点上运行的.jar。我现在正在做的是将所有mapreduce库jar合并到我的.jar文件中。一切正常，但我认为这不是一个很好的做法(他们对机器镜像进行了一些更新，我收到了可能与此相关的奇怪异常)。有人可以向我解释如何自动链接安装在亚马逊上的hadoop版本，这样我就可以在不将外部库添加到我的jar的情况下做到这一点吗？非常感谢您的帮助! 最佳答案所以您正在使用Amazon的ElasticMapReduce!

mapreduce hadoop section jar amazon-web-services

hadoop - 接受多个输入的 Pig UDF

PigUDF的快速问答。我有一个自定义UDF，我想接受多列:packagepigfuncs;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.pig.EvalFunc;importorg.apache.pig.FuncSpec;importorg.apache.pig.data.DataBag;importorg.apache.pig.data.DataType;importorg.apache.pig.data.Tuple;importorg.apache

hadoop Pig import section result apache-pig

hadoop - 如何确定 Hadoop 使用的所有默认端口并更改所有端口？

我在运行CentOS6.4的三个虚拟机集群上尝试了Hadoop2。我成功启动了hadoop集群，虽然Hadoop2的配置文件如:core-site.xml,hdfs-site.xml,mapred-site.xml和yarn-site.xml折磨我很多。我想把Hadoop2使用的所有默认端口都改掉，配置文件的官方文档定义了那么多端口号。因此，我认为最好确定Hadoop在运行时使用了哪些端口，然后将其全部更改。那么如何在运行CentOS的集群中找出Hadoop使用的所有默认端口呢？谢谢。最佳答案您可以通过使用netstat命令并结

hadoop section 跟踪器 mapreduce centos port

hadoop - CDH4 主要用于 YARN 吗？

我有几个关于CDH4的问题或困惑。我在这里发帖是因为我没有得到关于我的问题的任何具体信息。CDH4是为了推广YARN吗？我尝试使用tarball使用CDH4.3.0设置MapReduce1。我终于做到了，但它是迂回而痛苦的。而YARN的设置很简单。有人在生产中使用YARN吗？Apache明确表示YARN仍处于alpha版本，不适合生产。在这种情况下，为什么Cloudera以CDH4YARN为中心？Cloudera是否在生产中支持YARN？如果问题不合适，我们深表歉意。这就是tarball解压的样子。我关注了几个links进行配置，但我对必须完成的方式不满意CDH4.3.0tarball

hadoop CDH4 YARN CDH mapreduce cloudera hadoop-yarn

hadoop - oozie 历史日期协调员

我想为历史日期运行oozie协调器，并将日期作为参数传递给工作流中的脚本。我该怎么做？我可以将开始日期设为旧日期吗？它会catch吗？我应该添加什么频率。最佳答案是的，当您提交开始日期为过去的协调器时，它会catch。它会立即开始执行，因此设置concurrency=1可以使您的集群免于繁重的负载。如果你想先处理新文件，你也可以设置execution=LIFO。有关更多信息，请查看http://oozie.apache.org/docs/3.3.2/CoordinatorFunctionalSpec.html我正在发布来自How

协调员 hadoop gt lt coordinator hive oozie oozie-coordinator

hadoop - 使用hadoop map reduce获取最高薪水员工姓名

我是M/R程序的新手..我在HDFS中有一个包含这种结构数据的文件EmpId,EmpName,Dept,Salary,1231,用户名1,部门1,50001232，用户名2，部门2，60001233，用户名3，部门3，7000.......................现在我想找到工资最高的员工的姓名我写了一个mapreduce来找到最高的薪水。在我的映射器类中，我发出了这样的输出output.collect("最大值",员工工资);在reducer中，我找到了键“maxvalue”的最大值。现在我想在映射器中使用这个值，并找到赚取最高薪水的员工的名字。我如何发送reducer输出映

hadoop 薪水 section 射器 mapreduce hadoop-partitioning

hadoop - Datanode启动但不启动namenode

经过一番努力，我最终设法在伪分布式节点中使用hadoop，namenode和jobtracker完美运行(在http://localhost:50070和http://localhost:50030)昨天我尝试重启我的namenode、datanode等:$hadoopnamenode-format$start-all.shjps给我以下输出:17148DataNode17295SecondaryNameNode17419JobTracker17669JpsNamenode似乎不再愿意启动了......Jobtracker几秒钟后就死了。标记我没有重新启动计算机并且我已经尝试了以下线程

Datanode namenode hadoop apache org hdfs

83 84 858687 88 89